import scrapy
from baidu_project.items import BaiduProjectItem

class BaiduSpider(scrapy.Spider):
    name = 'baidu'  # 爬虫的名称，运行时用它调用
    allowed_domains = ['baidu.com']
    start_urls = ['https://www.baidu.com']  # 百度首页

    def parse(self, response):
        print('爬虫开始运行', response)

        # 创建 Item 对象
        item = BaiduProjectItem()

        # 提取标题
        item['title'] = response.xpath('//title/text()').get()

        # 提取描述（假设有 meta 标签）
        item['description'] = response.xpath('//meta[@name="description"]/@content').get()

        # 提取热搜标题
        titles = response.xpath("//li[@class='hotsearch-item']//span[@class='title-content-title']/text()").getall()

        print("热搜标题：", titles)

        # 使用逗号连接热搜标题，并避免最后一个多余的逗号
        item['hot_title'] = ','.join(titles)  # 直接使用 join 将标题连接成字符串

        # 返回 item
        yield item
